Apprentissage de représentations de documents et leur exploitation en recherche d'information
نویسندگان
چکیده
In order to perform the document-query similarity, many information retrieval (IR) models represent documents and queries as sets of weighted key words, called « bag of words », or a bag of concepts derived from a linguistic ontology, or constructed automatically by LSI or LDA techniques, to fill the gap between the query vocabulary and the one used in the document. Recent approaches propose to model the term as an embedded vector, called word2vec approaches, allowing to capture relations beyond the co-occurrence by modelling semantic relations between the terms. In this article, we present the state of the art about this topic, as well as our contribution to integrate these approaches within IR models. MOTS-CLÉS : Recherche d’information, apprentissage profond, word2vec, représentations sémantiques.
منابع مشابه
Apprentissage d'ordonnancements en recherche d'information structurée
RÉSUMÉ. Nous présentons un modèle d’apprentissage pour la Recherche d’Information Structurée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnance...
متن کاملExploitation des contributions des usagers liées au social bookmarking pour améliorer la Recherche d'Information
RÉSUMÉ. Les moteurs de recherche communs exploitent le contenu des documents qu’ils indexent. Or, les internautes créent également des données explicites (tags, annotations, commentaires, notes, données de géoréférencement, etc.) et implicites (clics, logs, etc.) qu’il semble utile de prendre en compte pour améliorer l’indexation. Nos travaux concernent actuellement deux problématiques. Premièr...
متن کاملTexte et Représentation en Recherche d'Information
Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...
متن کاملRecherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence
La recherche d’information (RI) orientée contenu dans les documents semistructurés de type XML met en relation un besoin en information exprimé sous forme d’une requête sur le contenu recherché (liste de mots-clés) et une collection de document XML. Le système de recherche doit répondre en retournant non pas des documents entiers, mais juste des fragments de documents (des éléments XML) pertine...
متن کاملApprentissage par analyse linéaire discriminante des paramètres de fusion pour la recherche d'information multimédia texte-image
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2017